Czy przynależność do klasy podróży i płci wpływały na szanse przeżycia katastrofy na Titanicu?¶
Analiza danych dotyczących pasażerów RMS Titanic¶
W niniejszej analizie postaram się odpowiedzieć na pytanie czy przynależność do droższej klasy podróży jak i to czy pasażer był kobietą czy mężczyzną miało wpływ na jego przeżycie podczas katastrofy Titanica w 1912 roku. Do analizy wykorzystam zbiór zawierający podstawowe dane o pasażerach: imię, płeć, wiek, klasa biletu, liczba rodzeństwa, liczba dzieci, czy pasażer przeżył oraz inne.
Trochę o RMS Titanic ...¶
RMS Titanic – brytyjski transatlantycki liniowiec pasażerski należący do towarzystwa żeglugowego White Star Line, uznawany w chwili wodowania za największy i najbardziej luksusowy statek świata. Wszedł do służby w 1912 roku. Jednostka miała 269 metrów długości i mogła pomieścić ponad 2200 osób. Uważany za „praktycznie niezatapialny”, słynął z nowoczesnych rozwiązań technicznych i komfortowego wyposażenia. W swój dziewiczy rejs z Southampton do Nowego Jorku wyruszył 10 kwietnia 1912 roku. Nocą z 14 na 15 kwietnia statek zderzył się z górą lodową na północnym Atlantyku. W wyniku katastrofy zatonął w ciągu około 3 godzin. Zginęło ponad 1500 osób, a uratowało się niespełna 710 pasażerów i członków załogi. Tragedia ujawniła poważne braki w zakresie bezpieczeństwa morskiego, co doprowadziło do zaostrzenia międzynarodowych przepisów i wprowadzenia nowych standardów żeglugi. Wrak Titanica został odnaleziony dopiero w 1985 roku na głębokości około 3800 metrów.
1. O samych danych¶
- Nasz zbiór składa się z 1310 rzędów i 14 kolumn.
- Wg danych najmłodszy pasażer miał ok 2 miesiące, a najstarszy 80 lat.
- Maksymalna liczba dzieci należących do jednego rodzica to 8.
- Zaokrętowanie nastąpiło jedynie w 3 portach.
- Najczęstszą destynacją dla pasażerów był Nowy Jork.
- Było tylko 27 łodzi ratunkowych.
- Jedynie 121 ciał pasażerów zostało odnalezionych.
2. Pierwsze wnioski¶
- Wśród pasażerów mamy prawie dwa razy więcej mężczyzn niż kobiet.
- Ponad połowa wszystkich pasażerów to 3 klasa.
Podczas analizy podstawowych statystyk dochodzimy do następujących wniosków:
- Mamy braki w kolumnach "Wiek", "Nr ciała" i paru innych.
- Średnia przeżywalność pasażerów wyniosła 0,38 (gdzie 1 oznacza że przeżył, a 0 że zginął), zatem większość osób z listy nie przeżyła - przyjrzymy się temu dokładniej w następnym kroku.
- Średni wiek pasażerów to 30 lat.
- Średnia cena biletu to ok. 33 funtów.
3. Analizujemy brakujące wartości¶
Po analizie brakujących wartości widzimy, że najistotniejsze są braki w "Wieku" pasażerów. Nie ma ok 20% danych w tej kolumnie, a podniosłyby one nam bardzo użyteczność danych pod kątem analizy np. wpływu wieku na przeżywalność pasażerów. Niestety nie będziemy w stanie uzupełnić tych danych, gdyż nie dysponujemy po tylu latach wiarygodnymi źródłami informacji. Oprzemy natomiast nasze analizy na danych, które pozostały.
Poniżej wizualizacja jak przedstawiają się również pozostałe braki.
Najwięcej danych brakuje w kolumnie "Nr ciała", ale to wynika oczywiście z faktu iż numer ciała będzie podany jedynie dla pasażerów, którzy zginęli.
4. Robimy analizę pojedynczych cech¶
Na podstawie histogramów dla zmiennych numerycznych możemy dojść do kolejnych kilku wniosków:
- Większość pasażerów z listy nie przeżyła.
- Ogromna większość pasażerów miała od 20-40 lat, choć było również dość sporo dzieci w wieku do 4 lat.
- Podróżujący rodzice zabierali ze sobą najczęściej 1 lub 2 dzieci.
KOBIETY NA TITANICU
Po pogrupowaniu danych po "Płci" widzimy iż mediana klasy podróży dla kobiet była wyższa o jedną klasę (klasa 2) w porównaniu do mężczyzn. Mamy również odzwierciedlenie tej tezy w średniej cenie biletu dla kobiet (23 funty) w porównaniu ze średnią ceną biletu dla mężczyzn (ok 12 funtów). Tak jak wcześniej sprawdziliśmy mężczyzn na pokładzie było 2 razy więcej niż kobiet, zapewne dlatego iż jechali oni do pracy na drugą stronę Oceanu pozostawiając rodziny w Europie. Stąd oczywistym jest że wybierali bilety ekonomiczne, najczęściej w 3 klasie, by jak najbardziej zaoszczędzić.
Zobaczmy jednak jak wygląda to konkretnie na liczbach na wykresie:
Widzimy, iż faktycznie suma kobiet podróżujących w 1 i 2 klasie jest wyższa niż w klasie 3. Przy okazji możemy zaobserwować jak wielu mężczyzn podróżowało w klasie 3.
W trakcie analizy średniej z "Rodzeństwa" i ilości "Dzieci" możemy zaobserwować, że kobiety rzadko podróżowały samotnie, z reguły z mężem, bądź dziećmi - w przeciwieństwie do meżczyzn.
Sprawdźmy teraz ile osób ocalało z podziałem na "Płeć" - nie dziwi fakt iż katastrofę przeżyło więcej kobiet niż mężczyzn (prawie 73% pasażerek przeżyło). U mężczyzn przeżyło jedynie 19%.
Zbierzmy teraz poznane dane na jednym wykresie i sprawdźmy jak prezentują się osoby ocalone przy podziale na "Klasy":
- Zauważamy potwierdzenie jednej z najbardziej kontrowersyjnych hipotez dotyczących pasażerów Titanica - im pasażer należał do lepszej klasy podróży tym miał większe szanse na przeżycie. Ponad połowa pasażerów z pierwszej klasy przeżyła katastrofę. W drugiej klasie szanse na przeżycie były już ok 20% niższe, a w klasie trzeciej - jedynie 25% pasażerów z tej klasy przeżyło.
CIEKAWOSTKI DOTYCZĄCE KLASY PODRÓŻY NA TITANICU
- Po pogrupowaniu po "Klasie" widzimy iż bilety w 1 Klasie były średnio 6-7 krotnie droższe niż w bilety dla 3 Klasy.
- Ciekawostką może być też średni wiek pasażerów przy podziale na Klasy. Pasażerowie 1 Klasy byli średnio 40% starsi niż pasażerowie 3 Klasy. Wynika to zapewne z faktu, iż 1 Klasą podróżowały zazwyczaj starsze osoby, które dorobiły się już majątku i stać ich było na taki bilet. 3 Klasą podróżowały młode wilki bez grosza, ale wiążące dużą nadzieję na lepszą przyszłość za oceanem.
A JAK BYŁY WYPEŁNIONE ŁODZIE RATUNKOWE?
Spróbujemy sprawdzić ile osób weszło do pojedyńczej łodzi ratunkowej. Na poniższym wykresie widzimy iż najwięcej osób ile weszło do łodzi to 39, jednakże do prawie 1/4 wszystkich łodzi weszło poniżej 5 osób. Z informacji jaką zaczerpnąłem spoza zbioru danych łodzie ratunkowe Titanica mogły pomieścić 64 osoby. Możemy tutaj jednak uznać że zbiór danych nie jest pełny, więc rzeczywista ilość osób, które weszły do łodzi jest trudna do oszacowania. Ilość łodzi 27 też jest niepewna, gdyż na Titanicu było ich ponoć jedynie 20.
5. Analizujemy relacje pomiędzy zmiennymi¶
W poszukiwaniu dalszych wzorców i relacji pomiędzy zmiennymi wykonaliśmy macierz korelacji. Niestety nie zaobserwowaliśmy żadnych istotnych korelacji w oparciu o same kolumny numeryczne. Najbliżej odwrotnej korelacji jest cena biletu do klasy podróży, gdyż cena malała wraz z niższą klasą (czyli wyższym numerem porządkowym), ale jest korelacja rzędu - 0,5 więc dość słaba.
6. Analizujemy wartości odstające¶
Po wykonaniu analizy wartości odstających możemy zaobserwować:
- Pojedyńcze wartości w górnym zakresie "Wieku" posażerów (mamy kilkoro powyżej 67 roku życia aż do 80).
- Pojedyńcze wartości w górnym zakresie "Rodzeństwa" i liczby "Dzieci" (od 3 do 8).
- Kilkanaście wartości odstających w górnym zakresie "Ceny za bilet" (od 71 funtów aż do 512 (!) funtów).
Przyjrzyjmy się wartościom odstającym dotyczącym "Ceny za bilet". Dotyczyły one pewnie najzamożniejszych pasażerów, którzy byli gotowi zapłacić bajońskie sumy za luksus własnego apartamentu. Takich osób jak widać było całkiem sporo. Poniżej tabela z danymi właścicieli 5 najdroższych biletów. 4 z nich kosztowały aż 512 funtów i należały między innymi do Thomasa Drake'a Martineza Cardeza - jest to postać autentyczna, amerykański bankier, który podróżował z matką Charlotte. Przeżyli katastrofę tak jak i pozostałe z 5 osób z najdroższymi biletami.
| Klasa | Ocalał | Imię | Płeć | Wiek | Rodzeństwo | Dzieci | Cena biletu [funt] | Destynacja | |
|---|---|---|---|---|---|---|---|---|---|
| 183 | 1.000000 | 1.000000 | Lesurer, Mr. Gustave J | male | 35.000000 | 0.000000 | 0.000000 | 512.329200 | nan |
| 302 | 1.000000 | 1.000000 | Ward, Miss. Anna | female | 35.000000 | 0.000000 | 0.000000 | 512.329200 | nan |
| 49 | 1.000000 | 1.000000 | Cardeza, Mr. Thomas Drake Martinez | male | 36.000000 | 0.000000 | 1.000000 | 512.329200 | Austria-Hungary / Germantown, Philadelphia, PA |
| 50 | 1.000000 | 1.000000 | Cardeza, Mrs. James Warburton Martinez (Charlotte Wardle Drake) | female | 58.000000 | 0.000000 | 1.000000 | 512.329200 | Germantown, Philadelphia, PA |
| 113 | 1.000000 | 1.000000 | Fortune, Miss. Mabel Helen | female | 23.000000 | 3.000000 | 2.000000 | 263.000000 | Winnipeg, MB |
7. Wnioski końcowe¶
Po wykonaniu całego EDA możemy wysnuć następujące wnioski:
- Mamy prawie 2 razy więcej mężczyzn niż kobiet wśród pasażerów.
- Ponad połowa wszystkich pasażerów to 3 klasa, pozostałe 50% jest podzielone mniej więcej równo dla 1 i 2 klasy.
- Średnia przeżywalność dla osób z listy wyniosła 0,38 zatem większość osób z listy nie przeżyła.
- Średnia wieku pasażerów to 30 lat, a średnia cena biletu to 33 funty.
- Widzimy iż średnia klasa podróży dla kobiet była wyższa o jedną klasę (klasa 2). Tak duża ilość mężczyzn na pokładzie jest zapewne spowodowana tym faktem, iż jechali oni do pracy na drugą stronę Oceanu pozostawiając rodziny w Europie. Stąd oczywistym jest że wybierali bilety ekonomiczne, najczęściej w 3 klasie, by jak najbardziej zaoszczędzić. Nie dziwi też fakt iż większość kobiet ze zbioru przeżyła (mediana 1) wedle zasady "women and children first", w przeciwieństwie do mężczyzn.
- Analizując powiązania z rodzeństwem i małżeństwem - u kobiet było ich więcej. Wynika to z faktu iż rzadko wybierały się w podróż same, w przeciwieństwie do mężczyzn.
- Zauważamy potwierdzenie jednej z najbardziej kontrowersyjnych hipotez dotyczących pasażerów Titanica - im pasażer przynależał do lepszej klasy podróży tym miał większe szanse na przeżycie. Ponad połowa pasażerów z pierwszej klasy przeżyła katastrofę. W drugiej klasie szanse na przeżycie były już ok 20 % niższe a w klasie trzeciej - jedynie 25% pasażerów z tej klasy przeżyło.
- Zauważamy oczywistą różnicę w cenie za bilet - 1 klasa była średnio 6-7 krotnie droższa niż bilet dla 3 klasy.
- Ciekawostką może być też średni wiek pasażerów przy podziale na klasy. Pasażerowie 1 Klasy byli średnio 40 % starsi niż pasażerowie 3 Klasy. Wynika to zapewne z faktu, iż 1 Klasą podróżowały zazwyczaj starsze osoby, które dorobiły się już majątku i stać ich było na taki bilet. 3 Klasą podróżowały młode wilki bez grosza, ale wiążące dużą nadzieję na lepszą przyszłość za oceanem.
- Widzimy iż najwięcej osób ile weszło do łodzi to 39, jednakże do prawie 1/4 wszystkich łodzi weszło poniżej 5 osób. Z informacji jaką zaczerpnąłem spoza zbioru danych łodzie ratunkowe Titanica mogły pomieścić 64 osoby. Możemy tutaj jednak uznać że zbiór danych nie jest pełny, więc rzeczywista ilość osób, które weszły do łodzi jest trudna do oszacowania. Ilość łodzi 27 też jest niepewna, gdyż na Titanicu było ich ponoć jedynie 20.
- Widzimy iż sporo wartości odstających mamy w cenie biletu (sporo osób zapłaciło dużo większe kwoty za bilet niż większość pasażerów). Dotyczyły one pewnie najzamożniejszych pasażerów, którzy byli gotowi zapłacić bajońskie sumy za luksus własnego apartamentu.
- Wg zbioru najdroższe bilety kosztowały po 512 funtów.